Management Summary
Click here for English version
Dies ist eine Fallstudie zur explorativen Datenanalyse auf selbst gesammelten GPS-Daten. Anhand einiger Datenmassage-Pakete (wie XML oder tidyverse) sowie Visualisierungen (ggplot2, highcharter, leaflet) können wir Zusammenhänge erkunden, die jedoch nicht weitergehend durch Hypothesentests untersucht werden.
Einleitung
Im Frühjahr 2020 bin ich zur Ostsee Segler Gemeinschaft e.V. gestoßen, ein Segelverein mit ca. 20 Booten und etwa 200 Mitgliedern an der Südwest-Seite der Alster. In diesem Sommer habe ich diese ausgiebig genutzt und meine Segelfertigkeiten aufgebaut. Einige dieser Törns habe ich per GPS aufgezeichnet und mit verschiedenen Visualisierungswerkzeugen untersucht. Einige Erkenntnisse:
- Mittwochs geh ich ungern segeln und Donnerstags ist Alster-Erkundungstag.
- Mit den Möwen bleibt man anscheinend lieber nahe beim OSG-Steg.
- Der Kielzugvogel sollte bei der Segelbundesliga teilnehmen.
- Corona verhilft zu Einhandsegler-Skills.
- Regatta-GPS-Tracks sehen aus wie Wollknäuel.
- Die Mitte der Alster ist (wie zu erwarten) der Segel-Hotspot.
Datenüberblick
Da ich (natürlich) nicht alle Sessions aufgezeichnet habe, folgt hier ein Überblick über die in dieser Analyse verwendeten Daten:
- Zeitraum: Sonntag, 17.05.2020 bis Freitag, 06.11.2020
- Anzahl GPS-Punkte: 92.465
- Anzahl aufgezeichneter Tage: 46
- Gesamtstrecke aufgezeichnet: 233 Seemeilen, entspricht etwa 419 km
- Anzahl gefahrener Bootstypen: 10
- Anzahl verschiedener Segelpartner: 16
- 46 Sessions in 24.7 Wochen macht im Schnitt 1.9 Sessions pro Woche, oder 1 Session alle 3.8 Tage
Zeitlicher Verlauf
Zunächst kann man ohne Aggregation die im Datensatz vorhandenen Tage darstellen.
Beobachtung: Der September war mit 14 Sessions der aktivste Segelmonat.
Wochentage
Nun kann man den Datensatz nacheinander durch die Brille der enthaltenen Variablen betrachten, beginnend mit dem Wochentag.
Häufigkeitsverteilung
Beobachtung: Mittwochs scheint mir die große Känguruhregatta das Segeln zu vermiesen, bei der vereinsinternen Dienstagsregatta scheine ich jedoch gerne dabei zu sein. Oder: Nach der Dienstagsregatta bin ich so durch, dass Mittwochs gar nichts geht?
Räumliche Verteilung
Wir benutzen das Paket Leaflet zur interaktiven Darstellung aller GPS-Tracks (per Mausrad oder Buttons kann gezoomt werden, die Legende dient zur Umschaltung der verschiedenen Wochentage):
Beobachtung: Samstags wagt man sich anscheinend nicht so weit raus, wohingegen man Donnerstags auch mal bis zum Unisteg in den Langen Zug fährt. Dienstags sind die Regatta-Dreieck-Strecken gut zu erkennen (Zoom verwenden).
Gefahrene Peilungen und Windrichtung
Zu jedem GPS-Punkt ist die momentane Peilung bekannt (die “Fahrtrichtung”). Dies können wir auszählen und als Histogramm (Häufigkeitsdiagramm) wie eine Kompassrose darstellen. Dazu plotten wir die Windrichtung.
Der Kurs um 15° (Nord-Nordost) sowie 165° (Süd-Südost) scheint bei mir sehr beliebt zu sein. Schaut man sich die geografische Form der Alster an, ist dies unmittelbar einsichtig: Als langgestrecktes Nord-Süd-Revier fährt man eben mehr “hoch und runter” statt “rechts und links”. Weiterhin sieht man die für unsere geografische Lage vorherrschenden Windrichtungen: Südwest und Nordwest.
Beobachtung: Der übliche Start-Weg vom OSG-Steg geht nach Nord-Nordost. Außerdem weht hier oft Südwest bzw. Nordwest-Wind, sodass genau diese Fahrtrichtungen selten sein sollten.
Bootstypen
Häufigkeitsverteilung
Mit 14 Sessions war Conger mein beliebtestes Boot. Dies lag zum einen daran, dass es ein sehr anfängerfreundliches Boot ist (ich habe meinen Segelschein erst Ende 2019 abgelegt und habe davor noch nie ein Segelboot betreten), der andere Grund findet sich in der Analyse der Segelpartner.
Beobachtung: Auf Conger ist gut Segeln lernen.
Räumliche Verteilung
Beobachtung: Mit Conger und Kielzugvogel kommt man überall hin, mit der Möwe bleibt man lieber nahe beim OSG-Steg. Interessant sind wieder die Regatta-Dreiecke der Möwen (mit Zoom erkennbar).
Welches Boot war das schnellste?
Interessant ist natürlich die Frage, welches Boot am besten performt. Um den Einfluss der verschiedenen Windgeschwindigkeiten der einzelnen Sessions herauszunehmen, bereinigen wir die gemessene Boots- von der Windgeschwindigkeit und geben die Geschwindigkeit dimensionslos als Geschwindigkeit in % der Windgeschwindigkeit an - beträgt diese 100%, so war man genauso schnell wie der Wind unterwegs, bei 50% halb so schnell und so weiter.
Interessant ist hier: Die kleine Conger war in der Spitze mehrmals fast doppelt zu schnell wie der Wind, wohingegen die Gleitjollen 470er und Laser im Mittel nur halb so schnell wie der Wind fahren. Diese gehen eben nur bei viel Wind richtig ab, die anderen schon bei weniger, vor allem wenn sie leicht sind und eine große Segelfläche haben, wie die beiden Gewinner.
Beobachtung: Kielzugvogel und J70 (Bundesligaboot) holen am meisten aus dem Wind heraus - vielleicht sollte der Kielzugvogel auch mal bei der Bundesliga mitfahren?
Segelpartner
Häufigkeitsverteilung
Mit 11 Sessions war ich allein am öftesten draußen. Dies lag vor allem an den Corona-bedingten Kontaktbeschränkungen im Mai und Juni 2020 - so musste ich gezwungenermaßen das Einhandsegeln erlernen.
Räumliche Verteilung der Segelpartner
Hierfür verwenden wir eine statische Darstellung der GPS-Strecken:
Beobachtung: Deutlich zu sehen sind die Regattapartner Christoph, Bernd und Jochem mit ihren Wollknäuel-Strecken.
Lieblings-Regionen auf der Alster
Wir betrachten die zweidimensionale Dichtefunktion der gefahrenen Strecken. Auf deutsch: Man kann die Alster in kleine Quadrate einteilen und zählen, wie oft jedes Quadrat durchfahren wurde. Die Quadrate färbe ich entsprechend der Häufigkeit ihres Durchfahrens ein - häufige durchfahrene Flächen rot, selten durchfahrene grün. So wie eine Corona-Hotspot-Karte eben.
Beobachtung: Die roten Hotspots könnten die Dienstagsregatta-Runden sein, der Vereinssteg unten links ist ebenfalls deutlich zu sehen.
Ausblick
Dies ist nur eine kleine, visualisierungsgetriebene explorative Analyse der Saison 2020, überwiegend univariat und ohne Überprüfung der aufgestellten Hypothesen. Aus dieser ergeben sich untersuchenswerte Fragen:
- Kann ich in meinen Daten den Zusammenhang zwischen Bootslänge und Geschwindigkeit sehen?
- Kann ich das Yardstick-System bei der Bootsgeschwindigkeits-Analyse hinzuziehen?
- Außer den 233 Seemeilen auf der Alster bin ich im Jahr 2020 noch 280 Seemeilen auf der Ostsee unterwegs gewesen - diese sind hier außen vor, wären allerdings eine interessante eigene Analyse wert.
Diese Fragen könnte man mit Hypothesentests oder anderen Machine Learning-Methoden untersuchen, was hier zunächst zu weit führen würde. Die Computerchips im Keller glühen jedoch schon und 2021 ist auch noch ein Jahr :-)
Credits
Danke OSG für die super Gemeinschaft, die fetzigen Boote und die spaßigen Angebote!
Technisches
Die Datensammlung erfolgt mit den Apps Komoot und Waterspeed, diese Analyse wurde mit R 4.0 und folgenden nützlichen Helfern erstellt:
- Data Input:
readrreadxl
- Data Wrangling:
dplyrpurrrtidyrlubridateglue
- Grafik:
highcharterrandomcoloRyarrr
- Geoanalyse:
- Output:
rmarkdownknitrprettydoc
Der Code für alle Berechnungen und Visualisierungen kann in meinem Github Repository heruntergeladen werden, diese Seite ist unter https://shosaco.github.io/segel_analysen erreichbar.